windows 换行符对 awk printf 函数的影响
unix 中的命令行工具大都需要直接或间接的操作文件来完成工作。文件格式会对工具的处理造成影响,有时甚至会得到非常奇怪的结果。
我在使用 awk 编写解析脚本来解析文件时就遇到过这样的问题。
当时一度怀疑是 awk 内部的 bug,最终却发现原来是换行符的问题。
解析的源文件使用了 windows 换行符,行结束字符 \r\n 中的 \r 会使 printf 的输出变得相当奇怪。
查询资料发现,\r 是回车符,在 printf 函数的输出中遇到一个 \r 字符时,\r 会导致之后的字符输出位置重置到行首,这样行首位置的旧值就会被替换,导致输出异常。
有如下 awk 命令:
awk 'BEGIN { printf("hello world!\rtest\n"); exit }'
执行上面的命令会得到如下输出:
testo world!
乍看相当奇怪,可如果按照上面描述的 \r 字符的处理过程分析,这样的输出来源如下:
首先处理 "hello world!" ,遇到 \r 时 buffer 中的内容为 "hello world!",处理回车符,后边的字符串 "test" 输出到行首,覆盖 "hell" ,然后处理 "\n" 输出 buffer 内容,这样就得到了上面的结果。
备注: 将文件格式修改为 unix 格式,可以使用 dos2unix 命令。